Agile robotics presents a difficult challenge with robots moving at high speeds requiring precise and low-latency sensing and control. Creating agile motion that accomplishes the task at hand while being safe to execute is a key requirement for agile robots to gain human trust. This requires designing new approaches that are flexible and maintain knowledge over world constraints. In this paper, we consider the problem of building a flexible and adaptive controller for a challenging agile mobile manipulation task of hitting ground strokes on a wheelchair tennis robot. We propose and evaluate an extension to work done on learning striking behaviors using a probabilistic movement primitive (ProMP) framework by (1) demonstrating the safe execution of learned primitives on an agile mobile manipulator setup, and (2) proposing an online primitive refinement procedure that utilizes evaluative feedback from humans on the executed trajectories.
translated by 谷歌翻译
Learning from Demonstration (LfD) is a powerful method for enabling robots to perform novel tasks as it is often more tractable for a non-roboticist end-user to demonstrate the desired skill and for the robot to efficiently learn from the associated data than for a human to engineer a reward function for the robot to learn the skill via reinforcement learning (RL). Safety issues arise in modern LfD techniques, e.g., Inverse Reinforcement Learning (IRL), just as they do for RL; yet, safe learning in LfD has received little attention. In the context of agile robots, safety is especially vital due to the possibility of robot-environment collision, robot-human collision, and damage to the robot. In this paper, we propose a safe IRL framework, CBFIRL, that leverages the Control Barrier Function (CBF) to enhance the safety of the IRL policy. The core idea of CBFIRL is to combine a loss function inspired by CBF requirements with the objective in an IRL method, both of which are jointly optimized via gradient descent. In the experiments, we show our framework performs safer compared to IRL methods without CBF, that is $\sim15\%$ and $\sim20\%$ improvement for two levels of difficulty of a 2D racecar domain and $\sim 50\%$ improvement for a 3D drone domain.
translated by 谷歌翻译
连续空间中有效有效的探索是将加固学习(RL)应用于自主驾驶的核心问题。从专家演示或为特定任务设计的技能可以使探索受益,但是它们通常是昂贵的,不平衡/次优的,或者未能转移到各种任务中。但是,人类驾驶员可以通过在整个技能空间中进行高效和结构性探索而不是具有特定于任务的技能的有限空间来适应各种驾驶任务。受上述事实的启发,我们提出了一种RL算法,以探索所有可行的运动技能,而不是一组有限的特定于任务和以对象为中心的技能。没有演示,我们的方法仍然可以在各种任务中表现出色。首先,我们以纯粹的运动角度构建了一个任务不合时宜的和以自我为中心的(TAEC)运动技能库,该运动技能库是足够多样化的,可以在不同的复杂任务中重复使用。然后,将运动技能编码为低维的潜在技能空间,其中RL可以有效地进行探索。在各种具有挑战性的驾驶场景中的验证表明,我们提出的方法TAEC-RL在学习效率和任务绩效方面的表现显着优于其同行。
translated by 谷歌翻译
从示范中学习(LFD)方法使最终用户能够通过演示所需的行为来教机器人新任务,从而使对机器人技术的访问民主化。但是,当前的LFD框架无法快速适应异质的人类示范,也无法在无处不在的机器人技术应用中进行大规模部署。在本文中,我们提出了一个新型的LFD框架,快速的终身自适应逆增强学习(FLAIR)。我们的方法(1)利用策略来构建政策混合物,以快速适应新的示范,从而快速最终用户个性化; (2)提炼跨示范的常识,实现准确的任务推断; (3)仅在终身部署中需要扩展其模型,并保持一套简洁的原型策略,这些策略可以通过政策混合物近似所有行为。我们从经验上验证了能力可以实现适应能力(即机器人适应异质性,特定用户特定的任务偏好),效率(即机器人实现样本适应性)和可伸缩性(即,模型都会与示范范围增长,同时保持高性能)。 Flair超过了三个连续控制任务的基准测试,其政策收益的平均提高了57%,使用策略混合物进行示范建模所需的次数少78%。最后,我们在现实机器人乒乓球任务中展示了Flair的成功。
translated by 谷歌翻译
激光射道是激光雷达同时定位和映射(SLAM)的重要部分之一。但是,现有的LiDAR探光法倾向于将新的扫描与以前的固定置扫描相匹配,并逐渐累积错误。此外,作为一种有效的关节优化机制,由于大规模全球地标的密集计算,捆绑捆绑调整(BA)不能直接引入实时探光仪。因此,这封信设计了一种新策略,称为LINDAR SLAM中的捆绑调节探针仪(LMBAO)的具有里程碑意义的地图,以解决这些问题。首先,通过主动地标维护策略进一步开发了基于BA的进程法,以进行更准确的本地注册并避免累积错误。具体来说,本文将整个稳定地标在地图上保存,而不仅仅是在滑动窗口中的特征点,并根据其主动等级删除地标。接下来,减小滑动窗口长度,并执行边缘化以保留窗口外的扫描,但对应于地图上的活动地标,从而大大简化了计算并改善了实时属性。此外,在三个具有挑战性的数据集上进行的实验表明,我们的算法在户外驾驶中实现了实时性能,并且超过了最先进的激光雷达大满贯算法,包括乐高乐园和VLOM。
translated by 谷歌翻译
由于安全问题,自动驾驶汽车的大规模部署已不断延迟。一方面,全面的场景理解是必不可少的,缺乏这种理解会导致易受罕见但复杂的交通状况,例如突然出现未知物体。但是,从全球环境中的推理需要访问多种类型的传感器以及多模式传感器信号的足够融合,这很难实现。另一方面,学习模型中缺乏可解释性也会因无法验证的故障原因阻碍安全性。在本文中,我们提出了一个安全增强的自主驾驶框架,称为可解释的传感器融合变压器(Interfuser),以完全处理和融合来自多模式多视图传感器的信息,以实现全面的场景理解和对抗性事件检测。此外,我们的框架是从我们的框架中生成的中间解释功能,该功能提供了更多的语义,并被利用以更好地约束操作以在安全集内。我们在Carla基准测试中进行了广泛的实验,我们的模型优于先前的方法,在公共卡拉排行榜上排名第一。
translated by 谷歌翻译
资源调度和协调是一个NP - 硬度优化,需要有效地将代理分配到具有上限和下限的时间和资源约束的一组任务。由于医院和工厂的资源协调的大规模和动态性质,人类领域专家手动计划和调整时间表。为了执行这项工作,域专家利用异构策略和拇指规则多年的学徒磨练。批判性需要的是能够在异构和可解释的学徒习惯中提取这种域知识,以超越单一人类专家的权力,这是安全关键域中的必要性。我们提出了个性化和可解释的学徒调度算法,通过在示范器类型的数量的推断下,通过推断的个性化嵌入非参数来提取决策标准,从而通过提取决策标准来提出任何人为任务示威者的可解释代表。我们在合成领域的近乎完善的LFD精度和88.22 \%的规划领域的准确性,具有现实世界,表现优于基础。最后,我们的用户学习表明我们的方法可能比神经网络($ P <0.05 $)产生更多可解释和更容易使用的型号。
translated by 谷歌翻译
玻璃在我们的日常生活中非常普遍。现有的计算机视觉系统忽略了它,因此可能会产生严重的后果,例如,机器人可能会坠入玻璃墙。但是,感知玻璃的存在并不简单。关键的挑战是,任意物体/场景可以出现在玻璃后面。在本文中,我们提出了一个重要的问题,即从单个RGB图像中检测玻璃表面。为了解决这个问题,我们构建了第一个大规模玻璃检测数据集(GDD),并提出了一个名为GDNet-B的新颖玻璃检测网络,该网络通过新颖的大型场探索大型视野中的丰富上下文提示上下文特征集成(LCFI)模块并将高级和低级边界特征与边界特征增强(BFE)模块集成在一起。广泛的实验表明,我们的GDNET-B可以在GDD测试集内外的图像上达到满足玻璃检测结果。我们通过将其应用于其他视觉任务(包括镜像分割和显着对象检测)来进一步验证我们提出的GDNET-B的有效性和概括能力。最后,我们显示了玻璃检测的潜在应用,并讨论了可能的未来研究方向。
translated by 谷歌翻译
玻璃在现实世界中非常普遍。受玻璃区域的不确定性以及玻璃背后的各种复杂场景的影响,玻璃的存在对许多计算机视觉任务构成了严重的挑战,从而使玻璃分割成为重要的计算机视觉任务。玻璃没有自己的视觉外观,而只能传输/反映其周围环境的外观,从而与其他常见对象根本不同。为了解决此类具有挑战性的任务,现有方法通常会探索并结合深网络中不同特征级别的有用线索。由于存在级别不同的特征之间的特征差距,即,深层特征嵌入了更多高级语义,并且更好地定位目标对象,而浅层特征具有更大的空间尺寸,并保持更丰富,更详细的低级信息,因此,将这些特征融合到天真的融合将导致亚最佳溶液。在本文中,我们将有效的特征融合到两个步骤中,以朝着精确的玻璃分割。首先,我们试图通过开发可区分性增强(DE)模块来弥合不同级别特征之间的特征差距,该模块使特定于级别的特征成为更具歧视性的表示,从而减轻了融合不兼容的特征。其次,我们设计了一个基于焦点和探索的融合(FEBF)模块,以通过突出显示常见并探索级别差异特征之间的差异,从而在融合过程中丰富挖掘有用的信息。
translated by 谷歌翻译
常识性推理是自然语言处理(NLP)的一个吸引人的话题,因为它在支持NLP系统的类似人类行为方面起着基本作用。以大规模的语言模型作为骨干,无监督的预培训在众多CORPORA上显示出捕获常识性知识的潜力。当前基于预训练的语言模型(PLM)推理遵循传统实践使用困惑度量。但是,常识性推理不仅仅是现有的概率评估,后者偏向单词频率。本文重新考虑了常识性推理的性质,并提出了一种新颖的常识性推理指标,非替代信心(NRC)。详细介绍,它根据Electra中替换的令牌检测(RTD)预训练目标的替换代币检测(RTD)的作用,在该目标中,腐败检测目标反映了对上下文完整性的信心,而与现有概率相比,与常识性推理更相关。我们提出的新方法可以提高两个常识性推理基准数据集上的零射击性能,并在另外七个共识性提问数据集上提高了零射击性能。我们的分析表明,预先认识的常识性知识,尤其是对于基于RTD的PLM,对于下游推理至关重要。
translated by 谷歌翻译